βˆ (pendenza della retta) =



Documenti analoghi
ESERCITAZIONE REGRESSIONE MULTIPLA

OLS multivariato: effetti parziali, multicollinearità

ANALISI MULTIVARIATA

Corso di Laurea: Numero di Matricola: Esame del 31 maggio 2018 Tempo consentito: 120 minuti

Regressione Lineare con regressori multipli

IL METODO ECONOMETRICO

Old Faithful, Yellowstone Park. Statistica e biometria. D. Bertacchi. Dati congiunti. Tabella. Scatterplot. Covarianza. Correlazione.

STATISTICA. Regressione-3 L inferenza per il modello lineare semplice

lezione 4 AA Paolo Brunori

Statistica. Capitolo 12. Regressione Lineare Semplice. Cap. 12-1

Metodi Quantitativi per Economia, Finanza e Management. Lezione n 8 Regressione lineare multipla: le ipotesi del modello, la stima del modello

Multicollinearità. Strumenti quantitativi per la gestione

Econometria. lezione 13. validità interna ed esterna. Econometria. lezione 13. AA Paolo Brunori

Capitolo 12 La regressione lineare semplice

LA MODELLAZIONE EMPIRICA DELLE RELAZIONI ECONOMICHE: APPLICAZIONI IN STATA 7. Maria Elena Bontempi

STATISTICA (2) ESERCITAZIONE Dott.ssa Antonella Costanzo

Regressioni Non Lineari

Metodi statistici per la ricerca sociale Capitolo 11. Regressione Multipla e Correlazione

Il metodo della regressione

Statistica - metodologie per le scienze economiche e sociali S. Borra, A. Di Ciaccio - McGraw Hill

lezione n. 6 (a cura di Gaia Montanucci) Verosimiglianza: L = = =. Parte dipendente da β 0 e β 1

5. Per determinare il miglior grado del polinomio di una regressione polimoniale

STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

Funzioni di regressione non lineari

STATISTICA. Esercitazione 5

Analisi di Regressione Multipla

1. variabili dicotomiche: 2 sole categorie A e B

STATISTICA A K (60 ore)

lezione 13 AA Paolo Brunori

Ex. 1 & 2: Costi, curve apprendimento ed economie di scala

Regressione Lineare Semplice e Correlazione

FACOLTÀ DI ECONOMIA Soluzione della Prova di autovalutazione 2012 (primi 6 CFU) ANALISI STATISTICA PER L IMPRESA

lezione 7 AA Paolo Brunori

lezione 8 AA Paolo Brunori

0.1 Veri ca di ipotesi

Esercitazione # 2 Maggio 2019

Università di Pavia Econometria Esercizi 4 Soluzioni

Nel modello omoschedastico la varianza dell errore non dipende da i ed è quindi pari a σ 0.

s a Inferenza: singolo parametro Sistema di ipotesi: : β j = β j0 H 1 β j0 statistica test t confronto con valore t o p-value

Esercitazioni di statistica

Regressione lineare con un solo regressore

ESERCITAZIONE ANCOVA

B il suo coe ciente si interpreta come la variazione di Y dovuta alla variazione unitaria di X (0! 1)

ECONOMETRIA APPLICATA PER L IMPRESA. Test di Radici Unitarie - Esercizio 5

Microeconometria Day # 3 L. Cembalo. Regressione con due variabili e metodo dei minimi quadrati

Corso di STATISTICA EGA - Classe 1 aa Docenti: Luca Frigau, Claudio Conversano

Carta di credito standard. Carta di credito business. Esercitazione 12 maggio 2016

CORSO DI STATISTICA (parte 1) - ESERCITAZIONE 6

Metodi statistici per la ricerca sociale Capitolo 13. Combinare regressione e ANOVA: predittori categoriali e quantitativi Esercitazione

Regressione lineare multipla CORSO DI ANALISI DEI DATI Anno Accademico 2009/2010, I ciclo

ECONOMETRIA: Laboratorio I

Psicometria con Laboratorio di SPSS 2

ESERCIZIO 1. Di seguito vengono riportati i risultati di una regressione multipla effettuata secondo il metodo standard (o per blocchi )

Il modello di regressione lineare multipla. Il modello di regressione lineare multipla

Modelli Statistici per l Economia. Regressione lineare con un singolo regressore (terza parte)

Regressione multipla

Correlazione e regressione

Minimi quadrati ordinari Interpretazione geometrica. Eduardo Rossi

Metodi statistici per l economia (Prof. Capitanio) Slide n. 10. Materiale di supporto per le lezioni. Non sostituisce il libro di testo

Metodi Statistici per il Management

Regressione lineare multipla

Statistica multivariata! Analisi fattoriale

Statistica. Esercitazione 16. Alfonso Iodice D Enza iodicede@unicas.it. Università degli studi di Cassino. Statistica. A. Iodice

Capitolo 11 Test chi-quadro

STATISTICA MULTIVARIATA SSD MAT/06

lezione 9 AA Paolo Brunori

Regressioni con Panel Data

CAMPIONAMENTO - ALCUNI TERMINI CHIAVE

Regressione & Correlazione

Il modello di regressione lineare multipla con regressori stocastici

L'analisi bivariata (analisi della varianza e correlazione) Prof. Stefano Nobile. Corso di Metodologia della ricerca sociale

Modelli di regressione dinamica

STATISTICA. Regressione-2

Corso di Laurea in Economia Aziendale. Docente: Marta Nai Ruscone. Statistica

Analisi descrittiva: calcolando medie campionarie, varianze campionarie e deviazioni standard campionarie otteniamo i dati:

R - Esercitazione 6. Andrea Fasulo Venerdì 22 Dicembre Università Roma Tre

MISURA DELLA VARIAZIONE CONCOMITANTE (COVARIAZIONE/ CONTROVARIAZIONE) DI VARIABILI CARDINALI O QUASI- CARDINALI

Statistica multivariata

Statistica multivariata

Un applicazione della modellistica ARCH-GARCH

Regressione. Monica Marabelli. 15 Gennaio 2016

Regressione Lineare con un Singolo Regressore

STATISTICA. Esercizi vari

I procedimenti pluriparametrici di stima

Verifica di ipotesi sui coefficienti di regressione. Verifica di ipotesi sul coefficiente angolare

Il metodo delle proporzioni crescenti

Università di Pavia Econometria Esercizi 5

Fasi del modello di regressione

Università degli Studi Roma Tre Anno Accademico 2016/2017 ST410 Statistica 1

Statistica multivariata Donata Rodi 17/10/2016

Il confronto tra due campioni

Statistica multivariata

Esercitazioni di statistica

Esercizi di statistica

Il test (o i test) del Chi-quadrato ( 2 )

Minimi quadrati vincolati e test F

Laboratorio di Statistica Aziendale Modello di regressione lineare multipla

Analisi di Regressione Multivariata. β matrice incognita dei coeff. di regressione (regr. lineare in β)

Transcript:

LA MODELLAZIONE EMPIRICA DELLE RELAZIONI ECONOMICHE: APPLICAZIONI IN STATA 7 Maria Elena Bontempi e.bontempi@economia.unife.it V LEZIONE: OLS multivariato: effetti parziali, multicollinearità Scopo dell esercizio: misurare l effetto di potenziali determinanti dell abilità di lettura (y = variabile dipendente del modello). Descrizione della banca dati SCOLARI.DTA obs identificatore dell individuo i-esimo (i =,,..., 0); quindi, N = 0 f dicotomica di genere: se femmina, f = (se maschio, f = 0) eta età dell individuo in anni compiuti y indicatore (crescente) di abilità di lettura taglia taglia di scarpe m = f Nella regressione semplice y = α + β x + ε: CÔV( y,x ) βˆ (pendenza della retta) = VÂR( x ) Nella regressione multipla y = α + β x + β x + ε: ˆβ = CÔV( y,x VÂR( x )VÂR( x (analogamente, per ˆβ ). )VÂR( x ) CÔV( y,x ) )CÔV( x [ CÔV( x,x )] β è un coefficiente di regressione parziale che misura quanto varia y per un incremento unitario di x, a parità di x. Evidentemente, la regressione multipla fornisce uno stimatore ˆβ = C ÔV (y, x ) / V ÂR (x ) solo nel caso in cui C ÔV (x, x )=0, cioè quando le variabili esplicative sono incorrelate. Perciò, se x e x covariano, la stima di β dipenderà anche da C ÔV (x, x ). Lo stesso vale per la stima di β.,x ) C ÔV (y, x ) e V ÂR (x ), oltre che, ovviamente, dalla Cosa può accadere se si stima un modello semplicissimo di tipo: y = α + β taglia + ε? In altri termini, se nella regressione viene inclusa x (taglia), ma viene dimenticata x (eta), variabile esplicativa rilevante? reg y taglia -------------+------------------------------ F(, 8) = 5.5 Model 7.4998438 7.4998438 Prob > F = 0.05 Residual 6.649806 8 3.33633 R-squared = 0.3964 -------------+------------------------------ Adj R-squared = 0.309 Total 44.496545 9 4.905576 Root MSE =.85 taglia.485849.648757.9 0.05 -.009077.980776 _cons -36.95083.655 -.7 0.6-86.8934.9767

L effetto della taglia sull abilità di lettura è, sorprendentemente, positivo e significativo...se ne deve derivare che... scarpe grosse cervello fine...? Suggerimento: MAI giustificare ex post, sulla base dei risultati ottenuti, un esito di regressione ma, piuttosto, cercare di capire la genesi di tale risultato. Analisi delle potenziali esplicative della y (vale a dire, eta e taglia): in una regressione multipla sono importanti TUTTE le correlazioni fra le variabili di interesse. graph y taglia eta, matrix half label y 35 34 33 3 taglia 3 eta 0 5 0 6 7 8 9 matrix crea una matrice di scatterplot, contenente piccoli plot per ogni possibile combinazione in coppia delle variabili elencate half mostra solo la metà inferiore della matrice scatterplot label sostituisce i comandi xlabel e ylabel che non funzionano con l opzione matrix. Analisi: y e taglia, y e eta sono correlate positivamente; ma, soprattutto, taglia e eta sono correlate positivamente (con l età, crescono i piedi!). Regressione multivariata reg y taglia eta -------------+------------------------------ F(, 7) = 4.79 Model 35.70003 7.85050 Prob > F = 0.003 Residual 8.447554 7.0679346 R-squared = 0.8087 -------------+------------------------------ Adj R-squared = 0.7540 Total 44.496545 9 4.905576 Root MSE =.0985 taglia.430543.4780688 0.86 0.46 -.773987.543507 eta.484458.3875 3.88 0.006.580634.38883 _cons -.45863 4.46338-0.86 0.48-46.659.7483

Risultato radicalmente diverso dal caso precedente: l età esercita un effetto (positivo e significativo) sull abilità di lettura (fatto pienamente ragionevole), mentre l effetto della taglia di scarpe sull abilità di lettura ora non è significativamente diverso da zero (altrettanto ragionevolmente). Considerazione generale: l omissione di una variabile esplicativa rilevante (eta) comporta stime distorte dell effetto della variabile inclusa (taglia), nella misura in cui variabile omessa e variabile inclusa covariano. Di fatto, l effetto è quello di male interpretare i risultati: l omissione dell eta spinge a sovrastimare l importanza della misura delle scarpe sull abilità di lettura. Attenzione alla specificazione del modello di regressione e, in particolare, alla non omissione delle variabili esplicative rilevanti. In una regressione con più esplicative, il parametro β misura l effetto che x esercita su y dato il livello di x, cioè tenuto conto dell effetto che x esercita, allo stesso tempo, su y e su x. L effetto di questo aggiustamento statistico può essere compreso grazie ad una serie di regressioni parziali, volte a depurare sia y sia x dell effetto di x (Teorema di Frisch-Waugh) Depurazione di y dall effetto di x (eta) con la seguente regressione parziale: reg y eta -------------+------------------------------ F(, 8) = 9.78 Model 34.80 34.80 Prob > F = 0.0006 Residual 9.3484335 8.685546 R-squared = 0.7883 -------------+------------------------------ Adj R-squared = 0.768 Total 44.496545 9 4.905576 Root MSE =.08 eta.67576.306985 5.46 0.00.9673733.38379 _cons -.348808.357977-0.06 0.956-5.57386 5.3064 predict ydepx, resid Depurazione di x (taglia) dall effetto di x (eta) con la successiva regressione parziale: reg taglia eta -------------+------------------------------ F(, 8) = 4.0 Model.6463364.6463364 Prob > F = 0.080 Residual 5.808 8.6600777 R-squared = 0.3339 -------------+------------------------------ Adj R-squared = 0.506 Total 7.96558 9.8807869 Root MSE =.84 taglia Coef. Std. Err. t P> t [95% Conf. Interval] eta.469678.307.00 0.080 -.070055.9939907 _cons 9.83566.7733 6.84 0.000 5.749 33.9 predict xdepx, resid 3

La regressione semplice fra variabili depurate fornisce lo stesso risultato di stima per l effetto della taglia sull abilità di lettura (β ) ottenuto nel caso della regressione multipla. reg ydepx xdepx -------------+------------------------------ F(, 8) = 0.85 Model.90087903.90087903 Prob > F = 0.387 Residual 8.4475546 8.0559448 R-squared = 0.0964 -------------+------------------------------ Adj R-squared = -0.066 Total 9.3484339 9.038748 Root MSE =.076 ydepx Coef. Std. Err. t P> t [95% Conf. Interval] xdepx.430543.44794 0.9 0.383 -.6873.4448 _cons -7.57e-0.34953-0.00.000 -.749349.749349 In questo caso, l effetto dell età (anche se non compare fra i regressori) è implicito nell operazione di depurazione di y e x da x compiuta prima e, quindi, l esito della stima (non significativa) corrobora l idea che l effetto della taglia delle scarpe sull abilità di lettura non è significativo in un modello che dia conto della presenza di un altra rilevante esplicativa (l età). Test di significatività congiunta su più parametri del modello di regressione Nella lezione IV è stato introdotto il test di significatività dei parametri di tipo t di Student. Il test t serve per verificare una ipotesi (nulla) su un solo parametro del modello. Talvolta, può essere interessante valutare una ipotesi che coinvolge più parametri allo stesso tempo. In questi casi si utilizza il test F che sottopone a verifica H 0 : β =β =0 contro H : almeno uno dei due parametri è diverso da zero. Riferendosi alla regressione multivariata reg y taglia eta: F(,7)=4.79, con Prob>F (valore di probabilità, o P-value) = 0.003. Dall esito del test (il p-value è inferiore alla probabilita del 5%, livello di significatività) se ne evince che il rischio di commettere un errore di I specie (rifiutare H 0 vera) è molto inferiore al 5% e, quindi, la nulla è rifiutata: i due parametri sono nel complesso diversi da zero. In pratica il test F della regressione serve per valutare se la nostra regressione presenta in generale elementi di interesse; infatti sotto H 0 nessuno dei regressori è di una qualche utilità per descrivere e prevedere l abilità di lettura (la variabile dipendente). Sotto l ipotesi nulla (β =β =0) il modello vincolato è y = a + ε (cioè una costante più degli errori imprevedibili): l accettazione della nulla implica che nessuno dei regressori proposti è utile per prevedere y. Il calcolo del test F è alquanto semplice e si articola nei seguenti passi: passo () stima del modello non vincolato (regressione multipla) e memorizzazione della somma del quadrato dei residui (RSS NV = 8.447554); passo () stima del modello vincolato e memorizzazione della somma del quadrato dei residui (RSS V = 44.496545); reg y -------------+------------------------------ F( 0, 9) = 0.00 Model 0.00 0. Prob > F =. Residual 44.496545 9 4.905576 R-squared = 0.0000 -------------+------------------------------ Adj R-squared = 0.0000 Total 44.496545 9 4.905576 Root MSE =.48 4

_cons.597.700394 7.99 0.000.08 4.86 (nota per inciso che, date le formule della stima OLS della costante, la stima.597 equivale alla media campionaria di y) passo (3) calcolo della statistica test, distribuita come una F(V, N K), dove V è il numero di parametri vincolati (V=), N è il numero di osservazioni (N=0), K è il numero di parametri stimati dal modello non vincolato (K=3). Quindi nel nostro caso F(, 7): 44.5 8.45 0 3 = 4.79 (che è appunto l output del test F della regressione non vincolata) 8.45 In generale: RSSV RSS NV RSS NV RSSV RSS NV N K / ovvero: V N K RSS NV V Il test di Chow di costanza dei parametri (discusso nella lezione VII) è di tipo F. Multicollinearità Si verifica quando due (o più) regressori del modello si assomigliano molto. In questo caso, gli OLS fanno fatica a distinguere l effetto su y (stima) del parametro β rispetto a β. E un problema dei dati usati (o della natura dei regressori). Si manifesta con test t delle stime dei parametri di x e x (presi uno per volta) che non rifiutano la nulla (stime così imprecise da non differire significativamente da zero) mentre, al contempo, il test F della regressione (che considera simultaneamente entrambi i parametri) rifiuta la nulla (nel complesso le esplicative servono a qualcosa ). Esercizio A CASA relativo alla lezione V (a) Utilizzare la banca dati Urban.dta (b) Stimare il modello: criminalità (homic) funzione del disagio sociale (poor) e della popolazione (pop) (c) Interpretare le stime, confrontandole con ciò che si è ottenuto nella regressione semplice (poor unico regressore) (d) Confrontando le stime corrispondenti al regressore poor (quella semplice e quella multivariata) ci si attende che poor e pop siano o non siano correlati? Verificare la risposta graficando gli scatter per homic poor e pop. (e) Alla luce del test F della regressione, esprimere una valutazione della qualità della specificazione proposta (f) Ci troviamo o no in presenza di multicollinearità? 5